[计量] 分位数回归

这是一篇关于分位数回归的介绍

Posted by Leung ZhengHua on 2017-10-15

本文总点击量

Introduction

一般的回归模型着重考察$\textbf{x}$对$y$的条件期望$E(y|\textbf{x})$的影响,实际上是均值回归。因为在误差项服从正态性假设下,给定$\textbf{x}$和系数$\beta$,$y$服从一定的概率分布(正态分布),均值为$E(y|\textbf{x})$。我们利用OLS估计的$\beta$系数,只能计算得到$y$分布的期望均值,在分布对称的情况下,分布的均值等于分布的中位数。

但我们关心$\textbf{x}$对整个条件分布$y|\textbf{x}$的影响,而$E(y|\textbf{x})$只是刻画条件分布$y|\textbf{x}$集中趋势的一个指标而已。如果$y|\textbf{x}$不是对称分布,则$E(y|\textbf{x})$很难反映条件分布的全貌。

如果能够估计一组系数向量$\beta$,使得$\widehat{y}=\textbf{x}\beta’$得到的$\widehat{y}$是$y$的某个分位数(比如0.5分位数),就能更全面地认识条件分布$y|\textbf{x}$。一般线性回归模型实际上分析的是研究对象的平均水平受到其他因素影响的程度大小,如果考虑将$y$分为三种水平(而不是只有一种平均水平),那么一种能够刻画不同水平研究对象的统计方法就应运而生了,这就是分位数回归[邓露,郑展;2009]。邓露还给出了分位数的简单解释,如果将被解释变量$y$表示为一系列解释变量$X$的线性表达式(又称为拟合值),并使得该表达式满足小于或等于$y$的分位数$q_\tau$的概率是$\tau$,就称为分位数回归。邓露总结分位数回归的优势如下:

  • 分位数能够更加全面地描述对象的全貌,而不仅仅是均值分析。它可以描述一些因素如何影响研究对象的中位数、1/4分位数、3/4分位数等,这些不同分位数代表了处于不同水平的研究对象。
  • 尖峰厚尾的金融数据中,分位数回归能够提供更为详尽的信息。因为不同分位数下的参数估计量往往不同,这就代表同样的影响因素对处在不同水平的研究对象作用大小不同。
  • 分位数回归的条件弱很多,特别是数据中含有离群点时,中位数回归的优势更加明显。

回归分析的基本思想就是设法通过使构建的方程和样本之间的距离最短来描述因变量的条件分布收到自变量影响的过程。在数据服从“尖峰厚尾”、极端值或者存在异方差等情况时,都会导致OLS失效。(苏瑜,万宇艳;2009)

Koenker和Bassett(1978)提出“分位数回归”(Quantile Regression,QR)使用残差绝对值的加权平均(比如$\sum |e_i|$)作为最小化的目标函数,不易受极端值影响,较为稳健。

总体分位数

假设$Y$为连续性随机变量,累积分布函数为$F_y(·)$,$Y$的总体$q$分位数记为$y_q$,满足:

更准确的定义应该是$y_q=inf\{y:F(y)\geq q\} ,0<q<1$,第一种定义在很自然很理想的情况下成立,当分布函数稍微复杂之后就不再适用。

样本分位数

将样本数据$\{y_1,y_2,…,y_n\}$按从小到大的顺序排列为$\{y_{(1)},y_{(2)},…,y_{(n)}\}$,$\widehat{y}_q$等于第$[nq]$个最小观测值,$[nq]$表示大于或等于$nq$而离$nq$最近的正整数。

分位数回归的估计方法

命题 可以将样本$q$分位数回归的系数估计问题视为以下最小化残差绝对值的加权平均问题的最优解:

如果$q=1/4$,则满足$y_i<\mu$的观测值得到3/4的权重,而满足$y_i\geq\mu$的观测值只得到1/4的权重。总之,无论q分位数在中位数的哪边,哪边的观测值权重就要更大一点,这就保证在优化的过程中会更多考虑该边的残差,使得估计结果$y$刚好处于q分位数位置上。

定义 函数$\rho _q(\cdot )$为

这个函数叫打钩函数(check function),形状如图:
百度文库《第26章分位数回归》

分位数回归的估计方法

假设条件分布$y|\textbf{x}$的总体q分位数$y_q(x)$是$x$的线性函数:

其中,$\beta_q$称为q分位数回归系数,其估计量由一下最小化问题来定义:

估计系数的分布

样本分位数回归系数$\widehat{\beta_q}$是总体回归系数$\beta_q$的一致估计量,且服从正态分布:

其中渐近方差$Avar(\widehat{\beta_q})=A^{-1}BA^{-1}$(夹心估计量)

拟合优度

对于样本q分位数回归方程,可使用准$R^2$度量其拟合优度,其定义为:

其中$\widehat{y}_q$为样本q分位数。